Confronto tra paradigmi di utilizzo dei dati: lo spettro dell'etichettatura
Il successo nel deploy di modelli di apprendimento automatico dipende criticamente dalla disponibilità, qualità e costo dei dati etichettati. In ambienti dove l'annotazione umana è costosa, impossibile o altamente specializzata, i paradigmi standard diventano inefficienti o falliscono del tutto. Presentiamo lo spettro dell'etichettatura, distinguendo tre approcci fondamentali in base a come sfruttano le informazioni:Apprendimento supervisionato (SL), Apprendimento non supervisionato (UL), e Apprendimento semi-supervisionato (SSL).
1. Apprendimento supervisionato (SL): Alta fedeltà, alto costo
SL opera su dataset in cui ogni input $X$ è esplicitamente accoppiato a un'etichetta di riferimento nota $Y$. Sebbene questo approccio raggiunga tipicamente la massima accuratezza predittiva per compiti di classificazione o regressione, la sua dipendenza da etichettature dense e di alta qualità è molto costosa in termini di risorse. Le prestazioni peggiorano drasticamente se gli esempi etichettati sono scarsi, rendendo questo paradigma fragile e spesso economicamente insostenibile per dataset massivi e in evoluzione.
2. Apprendimento non supervisionato (UL): Scoperta della struttura latente
UL opera esclusivamente su dati non etichettati, $D = \{X_1, X_2, ..., X_n\}$. Il suo obiettivo è inferire strutture intrinseche, distribuzioni di probabilità sottostanti, densità o rappresentazioni significative all'interno del manifold dei dati. Applicazioni chiave includono il clustering, l'apprendimento di manifold e l'apprendimento di rappresentazioni. UL è estremamente efficace per il preprocessing e l'engineering delle caratteristiche, fornendo intuizioni preziose senza alcuna dipendenza da input umani esterni.
Dati: $D_L$: Dati etichettati. $D_U$: Dati non etichettati. $\mathcal{L}_{SL}$: Funzione di perdita supervisionata. $\mathcal{L}_{Consistency}$: Perdita che impone regolarità nelle previsioni su $D_U$.
La forma concettuale della perdita totale SSL è una somma pesata dei due componenti: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Lo scalare $\lambda$ controlla il compromesso tra fedeltà alle etichette e affidamento alla struttura.